虽然虚拟生产系统中使用的LED面板可以显示出宽阔的颜色范围的充满活力的图像,但由于狭窄带红色,绿色和蓝色LED的峰值光谱输出,它们在用作照明时会产生有问题的颜色转移。在这项工作中,我们为虚拟生产阶段提供了改进的颜色校准过程,可改善此颜色演绎问题,同时还通过准确的相机内背景颜色。我们通过优化1)在相机视野中可见的LED面板像素来完成此操作,2)相机视野外的像素照亮了对象,并作为后处理,3)相机记录的像素值。结果是,在RGB LED面板虚拟生产阶段拍摄的镜头可以表现出更准确的肤色和服装颜色,同时仍然重现相机内背景的所需颜色。
translated by 谷歌翻译
Multimodal integration of text, layout and visual information has achieved SOTA results in visually rich document understanding (VrDU) tasks, including relation extraction (RE). However, despite its importance, evaluation of the relative predictive capacity of these modalities is less prevalent. Here, we demonstrate the value of shared representations for RE tasks by conducting experiments in which each data type is iteratively excluded during training. In addition, text and layout data are evaluated in isolation. While a bimodal text and layout approach performs best (F1=0.684), we show that text is the most important single predictor of entity relations. Additionally, layout geometry is highly predictive and may even be a feasible unimodal approach. Despite being less effective, we highlight circumstances where visual information can bolster performance. In total, our results demonstrate the efficacy of training joint representations for RE.
translated by 谷歌翻译
第44届软件工程国际会议(ICSE 2022)于2022年5月22日至2022年5月27日在美国宾夕法尼亚州匹兹堡亲自举行。在这里,我们总结了我们在会议上观察到的软件工程和测试领域的研究主题以及研究方向。
translated by 谷歌翻译
变化自动编码器(VAE)的最新进展使学习潜流歧管成为紧凑的谎言组,例如$ SO(d)$。由于这种方法假定数据在于谎言组本身同构的子空间,因此我们在这里研究了该假设如何在图像的背景下通过预测$ d $二维量产生的图像,而$ d $ d $ d $二维构成$ so so so so(d)$。在检查小组和图像空间的不同理论候选者后,我们表明,定义对数据空间的组动作的尝试通常会失败,因为它需要对卷上的更具体的几何约束。使用几何VAE,我们的实验证实了此约束是适当姿势推断的关键,我们讨论了这些结果对应用和未来工作的潜力。
translated by 谷歌翻译
精神分裂症是一种慢性神经精神疾病,会引起大脑内部的不同结构改变。我们假设将深度学习应用于结构性神经影像学数据集可以检测到与疾病相关的改变,并提高分类和诊断准确性。我们使用单一可用的,常规的T1加权MRI扫描测试了这一假设,我们使用标准后处理方法从中提取了3D全脑结构。然后在三个开放数据集上开发,优化和评估了一个深度学习模型,并对精神分裂症患者进行T1加权MRI扫描。我们提出的模型优于基准模型,该模型还使用3D CNN体系结构对结构MR图像进行了训练。我们的模型几乎能够完美地(ROC曲线下的区域= 0.987),将精神分裂症患者与看不见的结构MRI扫描中的健康对照区分开。区域分析将皮质下区域和心室局部作为最预测的大脑区域。皮层结构在人类的认知,情感和社会功能中起关键作用,这些区域的结构异常与精神分裂症有关。我们的发现证实了精神分裂症与皮质下大脑结构的广泛改变有关,皮层结构信息在诊断分类中提供了突出的特征。总之,这些结果进一步证明了深度学习的潜力,以改善精神分裂症的诊断,并从单个标准的T1加权脑MRI中确定其结构性神经影像学特征。
translated by 谷歌翻译
最近的研究表明,诸如RNN和Transformers之类的深度学习模型为长期预测时间序列带来了显着的性能增长,因为它们有效地利用了历史信息。但是,我们发现,如何在神经网络中保存历史信息,同时避免过度适应历史上的噪音,这仍然有很大的改进空间。解决此问题可以更好地利用深度学习模型的功能。为此,我们设计了一个\ textbf {f}要求\ textbf {i} mpraved \ textbf {l} egendre \ textbf {m} emory模型,或{\ bf film}:它应用了legendre promotions topimate legendre provientions近似历史信息,近似历史信息,使用傅立叶投影来消除噪声,并添加低级近似值以加快计算。我们的实证研究表明,所提出的膜显着提高了由(\ textbf {20.3 \%},\ textbf {22.6 \%})的多变量和单变量长期预测中最新模型的准确性。我们还证明,这项工作中开发的表示模块可以用作一般插件,以提高其他深度学习模块的长期预测性能。代码可从https://github.com/tianzhou2011/film/获得。
translated by 谷歌翻译
自闭症谱系障碍(ASD)是一种神经发育障碍,导致发生改变的行为,社会发展和通信模式。在过去几年中,自闭症患病率增加了两倍,现在有1分中有1个现在受到影响。鉴于传统诊断是一种冗长,劳动密集型的过程,已经对自动筛选自闭症的发展系统来说,已经提出了重大关注。韵律异常是自闭症的最明显的迹象,受影响的儿童展示言语特质,包括梯度,单调的语调,非典型音高和不规则语言压力模式。在这项工作中,我们展示了一套机器学习方法,以检测自闭症和神经典型(NT)儿童在家庭环境中捕获的自闭症语音音频中的自闭症。我们考虑了三种方法来检测儿童的自闭症语言:首先,在提取的音频特征(包括熔融频率跳跃系数)上培训的随机森林;二,卷积神经网络(CNNS)培训谱图;第三,微调Wav2Vec 2.0 - 基于最先进的基于变压器的ASR模型。我们在从斯坦福的猜测中培训我们的小说Todaset的小说数据集的分类器?移动游戏,一个应用程序,旨在在自然家庭环境中占有自闭症和神经典型的儿童的视频。随机森林分类器实现了70%的精度,微调Wav2Vec 2.0型号达到了77%的精度,CNN在将儿童的音频视为ASD或NT时,CNN可实现79%的准确性。我们的模型能够在具有不一致的录制质量选择的家庭音频剪辑上培训时预测自闭症状态,这可能更广泛地对现实世界的条件。这些结果表明,机器学习方法提供了在没有专门设备的语音中自动检测自闭症的承诺。
translated by 谷歌翻译
通过人类注释评估自然语言生成系统的质量非常昂贵。此外,人类注释运动是耗时的,包括不可重复使用的人工劳动力。在实践中,研究人员依赖于自动指标作为质量的代理。在过去的十年中,已经介绍了许多基于字符串的度量(例如,BLEU)。但是,这种指标通常依赖于完全匹配,因此,不强大地处理同义词。在本文中,我们介绍了InfolmM一系列未经培训的指标,可以被视为基于字符串的度量标准,该度量可以通过预先接受培训的屏蔽语言模型来解决上述漏洞。这家指标族也利用信息措施,允许改编Infolmm对各种评估标准。使用直接评估,我们展示Infolmm在概要和Data2Text生成的许多配置中实现了统计上显着的改进和超过10美元的相关点。
translated by 谷歌翻译
与大多数机器学习系统一样,推荐系统通常通过计算在保持数据点上计算的性能指标进行评估。然而,现实世界行为无疑是细微的:必须采用临时错误分析和部署特定的测试,以确保实际部署中所需的质量。在本文中,我们提出了基于行为的测试方法的闭幕式。闭合函数通过使用案例组织推荐系统,并介绍一般的即插即用过程以扩展行为测试。我们通过分析已知的算法和黑匣子商业系统来展示其能力,我们将闭合名称作为开源,为社区的可扩展包发布。
translated by 谷歌翻译
Federated Learning is a distributed machine learning approach which enables model training on a large corpus of decentralized data. We have built a scalable production system for Federated Learning in the domain of mobile devices, based on TensorFlow. In this paper, we describe the resulting high-level design, sketch some of the challenges and their solutions, and touch upon the open problems and future directions.
translated by 谷歌翻译